베이즈 정리와 분류 문제

베이즈 정리는 머신 러닝 중 분류(classification) 문제를 해결하는데 사용될 수 있다. 분류 문제는 입력 자료로 부터 카테고리 값인 출력 자표를 예측(prediction)하는 문제이다. 다음과 같은 문제는 분류 문제의 한 예이다.

  • 붉은 상자에는 사과가 2개, 오렌지가 6개가 있다.
  • 푸른 상자에는 사과가 3개, 오렌지가 1개가 있다.
  • 어떤 상자인지 모르고 과일을 하나 꺼냈는데 오렌지였다.
  • 과일을 꺼낸 상자는 붉은 상자인가 푸른 상자인가?

이 문제의 답은 누구나 직관적으로 알 수 있다. 오렌지가 더 많은 상자가 붉은 상자이기 때문에 꺼낸 과일이 오렌지라면 상자는 붉은 상자일 가능성이 높을 것이다. 그 가능성 즉, 확률을 수치화해보자.

이 문제를 확률론의 용어로 다시 정리한다.

  • 꺼낸 과일이 사과인 사건 $X=A$
  • 꺼낸 과일이 오렌지인 사건 $X=O$
  • 선택한 상자가 붉은 상자인 사건 $Y=R$
  • 선택한 상자가 푸른 상자인 사건 $Y=B$

우리가 원하는 확률은 오렌지를 꺼냈을 경우에 선택할 상자가 붉은 상자일 확률이므로 다음과 같은 조건부 확률이다.

$$ P(Y=R|X=O) $$

이 값을 계산하면 다음과 같다.

$$ \begin{eqnarray} P(Y=R|X=O) &=& \dfrac{P(X=O|Y=R)P(Y=R)}{P(X=O)} \\ &=& \dfrac{P(X=O|Y=R)P(Y=R)}{P(X=O|Y=R)P(Y=R) + P(X=O|Y=B)P(Y=B)} \\ &=& \dfrac{6/8 \cdot 1/2}{6/8 \cdot 1/2 + 1/4 \cdot 1/2 } \\ &=& \dfrac{6/8}{6/8 + 1/4} = 3/4\\ \end{eqnarray} $$

상자는 두 개 뿐이므로 선택할 상자가 푸른 상자인 확률은 $ 1 - P(Y=R|X=O) $이다.

$$ P(Y=B|X=O) = 1 - P(Y=R|X=O) = 1/4 $$

이 방식으로 분류 문제를 풀기 위해서는 각각의 $Y$ 값에 대한 $X$값의 확률 분포, 즉 우도(likelihood)를 알고 있어야 한다. 이렇게 베이즈 정리와 우도(likelihood)를 이용하여 분류 문제를 푸른 방법을 생성론적 방법(generattive method)라고 한다.